There is a key problem in the medical visual question answering task that how to effectively realize the feature fusion of language and medical images with limited datasets. In order to better utilize multi-scale information of medical images, previous methods directly embed the multi-stage visual feature maps as tokens of same size respectively and fuse them with text representation. However, this will cause the confusion of visual features at different stages. To this end, we propose a simple but powerful multi-stage feature fusion method, MF2-MVQA, which stage-wise fuses multi-level visual features with textual semantics. MF2-MVQA achieves the State-Of-The-Art performance on VQA-Med 2019 and VQA-RAD dataset. The results of visualization also verify that our model outperforms previous work.
translated by 谷歌翻译
最近,对深度学习进行了广泛的研究,以加速动态磁共振(MR)成像,并取得了令人鼓舞的进步。但是,如果没有完全采样的参考数据进行培训,当前方法可能在恢复细节或结构方面具有有限的能力。为了应对这一挑战,本文提出了一个自我监督的协作学习框架(SelfCollearn),以从无效的K-Space数据中进行准确的动态MR图像重建。拟议的框架配备了三个重要组成部分,即双网络协作学习,重新启动数据增强和专门设计的共同培训损失。该框架可以灵活地与数据驱动的网络和基于模型的迭代未滚动网络集成。我们的方法已在体内数据集上进行了评估,并将其与四种最新方法进行了比较。结果表明,我们的方法具有很强的能力,可以从无效的K空间数据捕获直接重建的基本和固有表示形式,因此可以实现高质量且快速的动态MR成像。
translated by 谷歌翻译
平均老师(MT)方案在半监督对象检测(SSOD)中被广泛采用。在MT中,通过手工制作的标签分配,采用了由教师的最终预测(例如,在无最大抑制(NMS)后处理之后)提供的稀疏伪标签(例如,在无最大抑制(NMS)后处理)。但是,稀疏到密集的范式使SSOD的管道复杂化,同时忽略了强大的直接,密集的教师监督。在本文中,我们试图直接利用教师的密集指导来监督学生培训,即密集至密集的范式。具体而言,我们建议逆NMS聚类(INC)和等级匹配(RM),以实例化密集的监督,而无需广泛使用的常规稀疏伪标签。 Inc带领学生像老师一样将候选箱子分组为NMS中的群集,这是通过学习在NMS过程中揭示的分组信息来实现的。在通过Inc获得了与教师相同的分组计划后,学生通过排名匹配进一步模仿了教师与聚类候选人的排名分配。借助拟议的Inc和RM,我们将密集的教师指导集成到半监督的对象检测(称为DTG-SSOD)中,成功地放弃了稀疏的伪标签,并在未标记的数据上提供了更有信息的学习。在可可基准上,我们的DTG-SSOD在各种标签率下实现了最先进的性能。例如,在10%的标签率下,DTG-SSOD将监督的基线从26.9提高到35.9地图,使以前的最佳方法软教师的表现优于1.9分。
translated by 谷歌翻译
音频命令是一种首选的沟通媒介,可将检查员保持在半自治无人机进行的民用基础设施检查环境中。为了了解一组异质和动态检查员的特定工作命令,需要为小组成本开发一个模型,并在组更改时很容易适应。本文的动机是建立一个具有股票分布的架构的多任务深度学习模型。该体系结构允许两个分类任务共享功能提取器,然后通过功能投影和协作培训在提取功能中交织在一起的特定主题和关键字特定功能。一组五个授权主题的基本模型对本研究收集的检查关键字数据集进行了培训和测试。该模型在分类任何授权检查员的关键字时达到了95.3%或更高的平均准确性。它在扬声器分类中的平均准确性为99.2%。由于该模型从合并的培训数据中学习的更丰富的关键字表示,因此将基本模型调整为新检查员只需要该检查员的少量培训数据,例如每个关键字五个话语。在验证授权检查员和76.1 \%的检测中,使用说话者分类分数进行检查员验证可以达到至少93.9%的成功率。此外,本文展示了所提出的模型对公共数据集上的大型组的适用性。本文为解决AI辅助人类机器人互动面临的挑战提供了解决方案,包括工人异质性,工人动态和工作异质性。
translated by 谷歌翻译
量子计算机是下一代设备,有望执行超出古典计算机范围的计算。实现这一目标的主要方法是通过量子机学习,尤其是量子生成学习。由于量子力学的固有概率性质,因此可以合理地假设量子生成学习模型(QGLM)可能会超过其经典对应物。因此,QGLM正在从量子物理和计算机科学社区中受到越来越多的关注,在这些QGLM中,可以在近期量子机上有效实施各种QGLM,并提出了潜在的计算优势。在本文中,我们从机器学习的角度回顾了QGLM的当前进度。特别是,我们解释了这些QGLM,涵盖了量子电路出生的机器,量子生成的对抗网络,量子玻尔兹曼机器和量子自动编码器,作为经典生成学习模型的量子扩展。在这种情况下,我们探讨了它们的内在关系及其根本差异。我们进一步总结了QGLM在常规机器学习任务和量子物理学中的潜在应用。最后,我们讨论了QGLM的挑战和进一步研究指示。
translated by 谷歌翻译
近年来,基于深度学习的平行成像(PI)取得了巨大进展,以加速磁共振成像(MRI)。然而,现有方法的性能和鲁棒性仍然可以是不受欢迎的。在这项工作中,我们建议通过柔性PI重建,创建的重量K-Space Genera-Tive模型(WKGM)来探索K空间域学习。具体而言,WKGM是一种通用的K空间域模型,在其中有效地纳入了K空间加权技术和高维空间增强设计,用于基于得分的Genererative模型训练,从而实现良好和强大的重建。此外,WKGM具有灵活性,因此可以与各种传统的K空间PI模型协同结合,从而产生基于学习的先验以产生高保真重建。在具有不同采样模式和交流电因子的数据集上进行实验性重新构建表明,WKGM可以通过先验良好的K-Space生成剂获得最新的重建结果。
translated by 谷歌翻译
在本文中,我们在半监督对象检测(SSOD)中深入研究了两种关键技术,即伪标记和一致性训练。我们观察到,目前,这两种技术忽略了对象检测的一些重要特性,从而阻碍了对未标记数据的有效学习。具体而言,对于伪标记,现有作品仅关注分类得分,但不能保证伪框的本地化精度;为了保持一致性训练,广泛采用的随机训练只考虑了标签级的一致性,但错过了功能级别的训练,这在确保尺度不变性方面也起着重要作用。为了解决嘈杂的伪箱所产生的问题,我们设计了包括预测引导的标签分配(PLA)和正面验证一致性投票(PCV)的嘈杂伪盒学习(NPL)。 PLA依赖于模型预测来分配标签,并使甚至粗糙的伪框都具有鲁棒性。 PCV利用积极建议的回归一致性来反映伪盒的本地化质量。此外,在一致性训练中,我们提出了包括标签和特征水平一致性的机制的多视图尺度不变学习(MSL),其中通过将两个图像之间的移动特征金字塔对准具有相同内容但变化量表的变化来实现特征一致性。在可可基准测试上,我们的方法称为伪标签和一致性训练(PSECO),分别以2.0、1.8、2.0分的1%,5%和10%的标签比优于SOTA(软教师)。它还显着提高了SSOD的学习效率,例如,PSECO将SOTA方法的训练时间减半,但实现了更好的性能。代码可从https://github.com/ligang-cs/pseco获得。
translated by 谷歌翻译
减少磁共振(MR)图像采集时间可能会使MR检查更容易获得。包括深度学习模型在内的先前艺术已致力于解决长期MRI成像时间的问题。最近,深层生成模型在算法鲁棒性和使用灵活性方面具有巨大的潜力。然而,无法直接学习或使用任何现有方案。此外,还值得研究的是,深层生成模型如何在混合域上很好地工作。在这项工作中,通过利用基于深度能量的模型,我们提出了一个K空间和图像域协作生成模型,以全面估算从采样量未采样的测量中的MR数据。与最先进的实验比较表明,所提出的混合方法的重建精度较小,在不同的加速因子下更稳定。
translated by 谷歌翻译
射频和深度学习在自动胶质瘤分级中显示出很高的普及。辐射瘤可以提取手工制作的特征,定量描述胶质瘤等级的专家知识,深度学习在提取促进最终分类的大量高吞吐量功能方面是强大的。然而,随着它们的互补优势尚未充分调查和整合,仍然可以提高现有方法的性能。此外,通常需要病变图来进行测试阶段的最终预测,这是非常麻烦的。在本文中,我们提出了专业知识引导的几何表示学习(录音)框架。手工制作功能和学习特征的几何歧管构建为挖掘深度学习和辐射族之间的隐性关系,从而挖掘相互同意和胶质瘤等级的必要表现。通过专门设计的歧管差异测量,分级模型可以更有效地利用输入图像数据和专家知识,并在测试阶段摆脱病变分段图的要求。拟议的框架是关于要使用的深度学习架构的灵活性。已经评估了三种不同的架构,并比较了五种模型,表明我们的框架总能产生有前途的结果。
translated by 谷歌翻译
前列腺成像报告和数据系统(PI-RAD)基于多参数MRI类\ ^ EES患者分为5类(PI-RADS 1-5),用于常规临床诊断指导。但是,无论pi-rads 3患者是否应该经过活组织检查,都没有共识。这些硬样品(HS)的采矿功能对于医生来说是有意义的,以实现准确的诊断。目前,HS Biomarkers的采矿是Insu \`的,并且HS Biomarkers用于前列腺癌诊断的e \'助力性和稳健性尚未探讨。在这项研究中,构建了来自DI \'EERENT数据分布的生物标志物。结果表明,HS Biomarkers可以在DI \'EERENT数据分布中实现更好的性能。
translated by 谷歌翻译